شناسایی واژه‌های غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی

نویسندگان

مجیده سنجی کارشناس ارشد علوم کتابداری و اطلاع‌رسانی و مسئول بخش فهرستنویسی کتابخانه مرکزی دانشگاه امام رضا (ع)

محمدرضا داورپناه دانشیار گروه کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد

چکیده مقاله:

پژوهش حاضر با هدف شناسایی واژه‌های غیرمفهومی در زبان فارسی و تهـیه سیاهه‌ای از این واژه‌ها برای نمایه‌سازی خودکار متنهای فارسی در رشته‌های روانشناسی، علوم‌تربیتی و کتابداری و اطلاع‌رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته‌است. جامعه آماری این پژوهش را مقاله‌های مندرج در آخرین شماره منتشر‌شده در مجله‌های علمی و پژوهشی ِ رشته‌های علـوم‌تربیتی، روانشناسی و کتابداری و اطلاع‌رسانی در سال 1385 تشکیل می‌دهد. نمونه شامل 63 مقاله است. گردآوری داده‌ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه‌شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به‌عنوان واژه نمایه‌ها ظاهر نمی‌شوند، بنابراین، آنها را می‌توان واژه‌های غیرمفهومی یا به اصطلاح واژه‌های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژه‌های غیرمفهومی تشکیل می‌دهد. 3- واژه‌های بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل می‌داد، 97280 واژه که 94/38% کل واژه‌ها را شامل می‌شود، جزء واژه‌های بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه‌های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه‌ها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه می‌باشند.

Download for Free

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

نمایه سازی سلسله مراتبی مدارک ساخت یافته

هرروز بر تعداد مدارک ساخت‌یافته (مانند مدارک قابل نشانه‌گذاری) در اینترنت اضافه می‌شود. این نوع مدارک ساخت‌یافته، علاوه بر محتوای مدرک، قالب معنایی مدرک را نیز ذخیره می‌کنند؛ بنابراین مدرک به‌صورت یک درختواره ذخیره می‌گردد. از طرفی با افزایش اطلاعات موجود در شبکه، تقاضا برای بازیابی اطلاعات، ...

متن کامل

نمایه سازی خودکار(گذشته،حال،آینده)

متن کامل

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...

متن کامل

مروری بر نمایه سازی خودکار و نرم افزارهای رایج در تولید آن

گسترش روزافزون منابع اطلاعات علمی، باعث گرایش متخصصان اطلاعات به فشرده گویی و استفاده از راهکارهای آسان سازی جست وجوی اطلاعات شده است. در این بین، نمایه سازی یکی از باصرفه ترین راه های میانبر جهت رسیدن به اطلاعات است. در بین روش های بی شمار نمایه سازی که هریک دارای نقاط ضعف و قوت خاص خود هستند، نمایه سازی خودکار یکی از روش هایی است که علاوه بر جست وجوپذیر نمودن اطلاعات موجود، باعث افزایش توان آ...

متن کامل

امکان سنجی نمایه سازی ماشینی مدارک زبان فارسی در مرکز اطلاع رسانی جهاد کشاورزی

هدف از انجام این پژوهش بررسی فرایند نمایه سازی ماشینی و سنجش امکانات لازم برای استفاده از نمایه سازی ماشینی در مرکز اطلاع رسانی جهاد کشاورزی می باشد تا الگویی مناسب جهت استفاده از نمایه سازی ماشینی به زبان فارسی در ایران ارائه گردد. گردآوری اطلاعات به شیوه مصاحبه و استناد به مدارک موجود انجام گرفته است. از روش طراحی سیستم استفاده شده است؛ به طوریکه پس از مقایسه وضعیت کنونی نمایه سازی در مرکز مو...

متن کامل

تبیین دستوری نمایه سازی مفعول در زبان فارسی

در این مقاله ابتدا به بررسی ماهیت دستوری عناصر نمایه مفعولی در زبان فارسی خواهیم پرداخت، زیرا ساختار دستوری جمله بر اساس تلقی ما از ماهیت دستوری این عناصر، به شیوه متفاوتی تبیین می‏شود. پس از آن به ساخت دستوری بندهای متعدی دارای نمایه مفعولی در چارچوب دستور نقش و ارجاع نظر می‏افکنیم و سعی بر آن است که مطابق ادعای نظریه، ساخت نحوی این بندها مطابق با شرایط خاص زبان فارسی و بدون تحمیل مقولات خارجی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

عنوان ژورنال

کتابداری و اطلاع رسانی

دوره 12 شماره شماره 4 (پیاپی 48)

صفحات 9- 36

تاریخ انتشار 2009-12-22

دنبال کردن

لغو دنبال کردن

{@ msg @}

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

واژههای غیرمفهومی واژههای بازدارنده نمایهسازی خودکار ساخت واژگانی زبان فارسی

میزبانی شده توسط پلتفرم ابری doprax.com